DynaCF: Mitigando el Aprendizaje por Atajos en Modelos de Recompensa
DynaCF reduce el aprendizaje superficial en modelos de recompensa mediante reajuste dinámico con contrafácticos, mejorando robustez y calidad de preferencias.
DynaCF reduce el aprendizaje superficial en modelos de recompensa mediante reajuste dinámico con contrafácticos, mejorando robustez y calidad de preferencias.